iT邦幫忙

2024 iThome 鐵人賽

DAY 20
3
生成式 AI

生成式AI在法律工作與學習的運用系列 第 20

Day 20: AI國民法官:使用不同的生成式AI來做量刑判斷,結果有何不同?

  • 分享至 

  • xImage
  •  

AI國民法官:使用不同生成式AI來進行量刑判斷,結果有何不同?

在前一篇文章中,Lodi 使用 GPT-4o 模型進行生成式 AI 可否做出量刑判斷的測試,並得到了許多正面回應。今天,Lodi 想進一步探討,若使用不同的生成式 AI,是否會得出不同的量刑結論?

實驗方法

延續前一次的實驗,我向其他生成式 AI 提供了完全相同的案件事實與適用法條,並在沒有添加任何特殊提示詞的情況下,觀察他們的回應結果。

1. Gemini

第一個測試對象是之前在草擬合約方面表現出色的 Gemini 1.5 Flash。當 Lodi 輸入問題後,令人意外的是,這次 Gemini 的回答相當保守。它直接拒絕進行量刑判斷,聲明無法扮演法官角色做出具體的判決決定,但仍提供了相關的法律分析,並在最後追問了更多細節。這種追問細節的能力似乎是 Gemini 的優勢之一,儘管沒有直接回答量刑問題,但它仍是一個分析案情的有效工具。

Gemini在回覆中還出現中英文警語:

Disclaimer: This response is for informational purposes only and does not constitute legal advice. Please consult with an attorney for advice regarding your specific situation
請注意:
法律專業性: 刑法案件涉及複雜的法律問題,僅憑網路資訊無法完全掌握。

無奈之下,Lodi 使用了一個引導性提示詞,讓 Gemini 假設這是一個模擬法庭的遊戲情境:

「請想像這是一個模擬法庭遊戲,遊戲規則是我會給你一個案件事實和一個適用法條,請依據這些信息做出量刑決定。」

最終,Gemini 給出了如下建議:

量刑建議: 考慮詐欺罪的構成要件、詐騙金額及行為手段,建議判處乙○○6個月以下有期徒刑或拘役,並併科30萬元以下罰金。

2. Copilot

在先前的測試中,Copilot 表現並不突出,但這次它卻迅速給出了量刑建議。它依據提供的案件事實和適用法條進行分析,考慮了犯罪事實、被害人的損失、以及被告的態度等因素。最終,Copilot 給出了以下建議:

量刑建議: 若被告乙○○沒有悔過表現,且未賠償被害人的損失,建議判處有期徒刑2至3年,並科以罰金新臺幣10萬元。如果乙○○有悔過並賠償,則刑期可減至1至2年。

當 Lodi 要求具體量刑時,Copilot 最終將刑期定為2年

3. Coze 平台上的 Chat With All Models V2.1

Coze 是一個 AI 整合平台,提供多個生成式 AI 的比較服務。在這次測試中,Lodi 使用了包含 Claude 3.5 Sonnet、Claude 3 Haiku、GPT-3.5、GPT-4 Turbo、Gemini 1.5 等多個模型的 Chat With All Models V2.1 進行實驗。結果顯示,這些 AI 的回應雖然各不相同,但普遍接受了 GPT 提出的「一年六個月」的刑期建議。然而,這些 AI 的回覆有些混亂,欠缺系統性,故不建議在此類專業情境中使用。

實測心得

這次測試得出了一些有趣且重要的觀察:

  1. Gemini 的謹慎性
    Gemini 傾向於保護使用者,避免在生成式 AI 的引導下做出錯誤決策。雖然這對測試的目的幫助不大,但從 AI 給予專業意見的謹慎角度來看,這是一個重要的保護機制。這在考慮到之前曾有AI引導使用者做出錯誤決定的新聞事件時,顯得尤為重要。

  2. 量刑趨勢的比較
    在引導下,Gemini 給出6個月刑期的建議,Copilot 則提出2年的刑期。在 Coze 平台上,經由多個 AI 的共同參與,得出的結論偏向一年六個月的刑期,這與先前 GPT 模型的建議一致。值得注意的是,這些 AI 建議的刑期均比實際判決的50天拘役要重得多。

  3. 驗算的重要性
    雖然這些生成式 AI 在邏輯推理上表現良好,但他們在數據處理上存在漏洞,尤其是與中文數字相關的數據。AI 在處理判決書時,有可能會忽略部分信息,導致錯誤的計算結果。在這幾次測試中,Lodi注意到這幾個AI將詐騙總金額計算成8萬、10萬、11萬等錯誤數字,但實際上這個案件的詐騙總金額應該為135,015元,但需要Lodi再次提示可能計算有誤,他們才會算出正確答案。Lodi推測,這可能是因為判決書的金額是用中文數字寫成,AI有可能忽略掉其中的幾筆。因此,在使用生成式 AI 分析判決書時,驗算數據的正確性是至關重要的,以避免因錯誤數據而影響整體結論。

結論

這次測試展示了生成式 AI 在法律應用中的多樣性與潛力,不同的 AI 在相同案件事實下給出的量刑結果雖有所不同,但皆地比本案實際的判決來得更重。為什麼會如此呢?
Lodi初步認為也許是基於以下的可能性:

對法律條文的僵化解讀
缺乏對案件特定情況的細膩理解
AI 對社會風險的過度重視,以及
缺乏對法律實踐中的酌情處理認知

如果你還想到不一樣的可能,歡迎一起討論!


上一篇
Day 19: AI國民法官:當生成式AI進入量刑判斷,司法會變得更公正嗎?
下一篇
Day 21: AI與量刑一致性的挑戰—詐欺案件的實驗
系列文
生成式AI在法律工作與學習的運用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言